Transición al Visión por Computadora: ¿Por qué las CNNs?

Transición al Visión por Computadora

Hoy pasamos de manejar datos simples y estructurados con capas lineales básicas a enfrentar datos de imagen de alta dimensión. Una sola imagen en color introduce una complejidad significativa que las arquitecturas estándar no pueden manejar de forma eficiente. El aprendizaje profundo para la visión requiere un enfoque especializado: la Red Neuronal Convolucional (CNN).

1. ¿Por qué fallan las Redes Neuronales Completamente Conectadas (FCNs)?

En una FCN, cada píxel de entrada debe conectarse con cada neurona de la capa siguiente. Para imágenes de alta resolución, esto provoca una explosión computacional, haciendo el entrenamiento inviable y la generalización deficiente debido a un sobreajuste extremo.

Dimensión de Entrada:Una imagen RGB estándar de $224 \times 224$ da como resultado $150.528$ características de entrada ($224 \times 224 \times 3$).
Tamaño de la Capa Oculta:Si la primera capa oculta utiliza 1.024 neuronas.
Parámetros Totales (Capa 1):Aproximadamente $154$ millones de pesos ($150.528 \times 1024$) solo para el primer bloque de conexiones, lo que requiere memoria masiva y tiempo de cómputo.

La Solución CNN

Las CNNs resuelven el problema de escalabilidad de las FCNs aprovechando la estructura espacial de las imágenes. Identifican patrones (como bordes o curvas) usando filtros pequeños, reduciendo el número de parámetros en órdenes de magnitud y promoviendo robustez.

TERMINALbash — modelo-env

> Listo. Haz clic en "Ejecutar" para ejecutar.

INSPECTOR DE EFICIENCIA DE PARÁMETROS En vivo

Ejecuta la comparación para visualizar los conteos de parámetros.

Pregunta 1

¿Cuál es el beneficio principal de usar Campos receptivos locales en las CNNs?

Los filtros solo se enfocan en una pequeña región localizada de la imagen de entrada.

Permite que la red procese toda la imagen de forma global de inmediato.

Garantiza que todos los parámetros se inicialicen en cero.

Elimina la necesidad de funciones de activación.

Pregunta 2

Si un filtro de $3 \times 3$ se aplica a toda una imagen, ¿qué concepto central de CNN se está utilizando?

Normalización del kernel

Pesos compartidos

Conexión completa

Transposición de características

Pregunta 3

¿Qué componente de CNN es responsable de reducir progresivamente las dimensiones espaciales (ancho y alto) de los mapas de características?

Activación ReLU

Capas de agrupamiento (subsampling)

Normalización por lotes

Desafío: Identificación de Componentes Clave de CNN

Relaciona los mecanismos de CNN con sus beneficios funcionales.

Necesitamos construir un modelo de visión que sea altamente eficiente en parámetros y pueda reconocer un objeto incluso si se desplaza ligeramente en la imagen.

Paso 1

¿Qué mecanismo garantiza que la red pueda identificar una característica (como una línea diagonal) independientemente de su posición en el marco?

Solución:
Pesos compartidos. Al usar el mismo filtro en todas las ubicaciones, la red aprende la invariancia de traslación.

Paso 2

¿Qué elección arquitectónica permite a una CNN detectar características con menos parámetros que una FCN?

Solución:
Campos receptivos locales (o conectividad dispersa). En lugar de conectarse con cada píxel, cada neurona solo se conecta con una pequeña región localizada de la entrada.

Paso 3

¿Cómo lleva la estructura CNN al aprendizaje jerárquico de características (por ejemplo, bordes $\to$ esquinas $\to$ objetos)?

Solución:
Capas apiladas. Las capas tempranas aprenden características simples (bordes) usando convolución. Las capas más profundas combinan las salidas de las capas anteriores para formar características complejas y abstractas (objetos).